Big Data and Analytics Correlation এবং Covariance Analysis গাইড ও নোট

340

Correlation এবং Covariance দুটি গুরুত্বপূর্ণ পরিসংখ্যানিক পদ্ধতি যা দুইটি ভেরিয়েবলের মধ্যে সম্পর্ক এবং তাদের পরিবর্তনশীলতা পরীক্ষা করে। এই বিশ্লেষণগুলি ডেটা সায়েন্স, অর্থনীতি, এবং অন্যান্য শাখায় ব্যাপকভাবে ব্যবহৃত হয়, কারণ এগুলি আমাদের জানাতে সাহায্য করে যে দুটি ভেরিয়েবলের মধ্যে কী ধরনের সম্পর্ক বিদ্যমান এবং তাদের একে অপরের উপর কী প্রভাব থাকতে পারে।


Correlation Analysis (সাম্পরিক সম্পর্ক বিশ্লেষণ)

Correlation হলো দুটি ভেরিয়েবলের মধ্যে সম্পর্কের পরিমাপ। এটি একটি স্কেলার ভ্যালু দিয়ে দুইটি ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক নির্দেশ করে। Correlation বিশ্লেষণটি মূলত ৩টি ধরনের হতে পারে:

  • Positive Correlation (ধনাত্মক সম্পর্ক): যখন দুটি ভেরিয়েবলের মধ্যে সম্পর্ক উভয়ই একসাথে বৃদ্ধি পায় বা কমে, তখন তাদের মধ্যে ধনাত্মক সম্পর্ক থাকে।
  • Negative Correlation (ঋণাত্মক সম্পর্ক): যখন একটি ভেরিয়েবল বাড়ে এবং অন্যটি কমে, তখন তাদের মধ্যে ঋণাত্মক সম্পর্ক থাকে।
  • No Correlation (কোনো সম্পর্ক নেই): যখন দুটি ভেরিয়েবলের মধ্যে কোনো সম্পর্ক না থাকে, তখন তা কোনো সম্পর্কের মধ্যে পড়ে না।

Correlation Coefficient

Correlation Coefficient (r) দুটি ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক নির্ধারণ করে। এর মান -১ থেকে ১ এর মধ্যে থাকে:

  • r = 1: পূর্ণ ধনাত্মক সম্পর্ক
  • r = -1: পূর্ণ ঋণাত্মক সম্পর্ক
  • r = 0: কোনো সম্পর্ক নেই

Correlation Calculation in R

আর-এ cor() ফাংশন ব্যবহার করে কোরিলেশন ক্যালকুলেট করা হয়।

উদাহরণ:

# দুটি ভেরিয়েবলের কোরিলেশন বের করা
x <- c(1, 2, 3, 4, 5)
y <- c(5, 4, 3, 2, 1)

correlation_value <- cor(x, y)
print(correlation_value)  # আউটপুট: -1 (ঋণাত্মক সম্পর্ক)

আর-এ কোর্স ফাংশনটি ব্যবহৃত হলে, এটি দুটি ভেক্টরের মধ্যে কোরিলেশন বের করে, যেখানে আমরা চাইলে পিয়ারসন, স্পিয়ারম্যান বা ক্যান্ডাল কোরিলেশন পদ্ধতি ব্যবহার করতে পারি।

# পিয়ারসন কোরিলেশন
correlation_value_pearson <- cor(x, y, method = "pearson")

# স্পিয়ারম্যান কোরিলেশন
correlation_value_spearman <- cor(x, y, method = "spearman")

# ক্যান্ডাল কোরিলেশন
correlation_value_kendall <- cor(x, y, method = "kendall")

Covariance Analysis (কোভ্যারিয়েন্স বিশ্লেষণ)

Covariance দুটি ভেরিয়েবলের মধ্যে সম্পর্কের পরিবর্তনশীলতা পরিমাপ করে, কিন্তু এটি কেবলমাত্র দুটি ভেরিয়েবলের একসাথে পরিবর্তিত হওয়ার পরিমাণ জানায়, কিন্তু সম্পর্কের শক্তি বা দিক দেখায় না। কভারিয়েন্সের মান জানিয়ে দেয় দুটি ভেরিয়েবলের মধ্যে সম্পর্কের প্রকৃতি:

  • Positive Covariance (ধনাত্মক কোভ্যারিয়েন্স): যখন দুটি ভেরিয়েবলের মধ্যে উভয়ই একসাথে বাড়ে বা কমে।
  • Negative Covariance (ঋণাত্মক কোভ্যারিয়েন্স): যখন একটি ভেরিয়েবল বাড়ে এবং অন্যটি কমে।
  • Zero Covariance (কোনো কোভ্যারিয়েন্স নেই): যখন দুটি ভেরিয়েবলের মধ্যে কোনো সম্পর্ক না থাকে।

Covariance Calculation in R

আর-এ cov() ফাংশন ব্যবহার করে কভারিয়েন্স ক্যালকুলেট করা হয়।

উদাহরণ:

# দুটি ভেরিয়েবলের কোভ্যারিয়েন্স বের করা
covariance_value <- cov(x, y)
print(covariance_value)  # আউটপুট: -2.5 (ঋণাত্মক কোভ্যারিয়েন্স)

যদিও কভারিয়েন্স সম্পর্কের শক্তি জানায় না, তবে একটি ভেরিয়েবলের বড় পরিবর্তনের সাথে অন্যটি কীভাবে পরিবর্তিত হচ্ছে তা দেখায়।


Correlation এবং Covariance এর মধ্যে পার্থক্য

  • Correlation দুটি ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক দেখায়, এবং এর মান -১ থেকে ১ এর মধ্যে থাকে। এটি স্কেল ইনভ্যারিয়েন্ট (যান হারানোর পরিমাণ সাপেক্ষে পরিবর্তিত হয় না)।
  • Covariance দুটি ভেরিয়েবলের মধ্যে একত্রিত পরিবর্তনশীলতা পরিমাপ করে, তবে এর মান সীমাবদ্ধ নয় এবং এটি স্কেল নির্ভর (যত বড় বা ছোট ভেরিয়েবল হবে, কোভ্যারিয়েন্সের মানও তত বেশি বা কম হবে)।

সারাংশ

Correlation এবং Covariance হল পরিসংখ্যানিক পরিমাপ যা দুটি ভেরিয়েবলের মধ্যে সম্পর্ক বা সম্পর্কের শক্তি এবং তাদের একসাথে পরিবর্তনশীলতা পরীক্ষা করে। Correlation শক্তি এবং দিকের পরিমাপ দিয়ে সম্পর্কের বিস্তারিত বর্ণনা দেয়, তবে Covariance কেবলমাত্র সম্পর্কের প্রকৃতি (যেমন উভয়ের একসাথে বাড়ানো বা কমানো) জানায়। আর প্রোগ্রামিংয়ে এই দুটি বিশ্লেষণ cor() এবং cov() ফাংশনের মাধ্যমে করা হয়, যা ডেটা বিশ্লেষণে গুরুত্বপূর্ণ ভূমিকা পালন করে।

Content added By
Promotion

Are you sure to start over?

Loading...